LLM x 木探索による研究行為のシミュレーション
LLMに複数の既存の論文を読ませ、架空の後続研究を生成させることができます。このプロセスを繰り返し、論文の有向非巡回グラフを拡張することで、研究者が論文を読んで新しい研究を生み出すプロセスをシミュレートできるのではないかと考えました。
このシミュレーションをMCTS / UCB Tree Search風のアルゴリズムで構築しました。出力結果は別のLLMがレビュアーとして評価し、その評価スコアを用いて良い方向に子孫を拡張しつつ、悪い枝を刈り取っていきます。 一番上のノード(黄色)は実在する論文ですが、それ以外のノードはLLMが生成したものです。
https://gyazo.com/ba07fa6646599c86422a767df865b3f3https://gyazo.com/990ce241710c5fc368de1919e233b130https://gyazo.com/20e298f7291a51e1658a0a2161165f1f
結果はある程度チェリーピックされているので、結論には完全に自信がありませんが、各ノードの評価が上がっていることから、良いノードの活用がうまくいっていることがわかります。
https://gyazo.com/9d0284b412c276cd3bfd7cd4081452dd
LLMに与える「良い論文」の定義を変えると、成長パターンがどのように変化するのか興味深いですね。
UCBのパラメータcを変更すると、成長の変化も観察できます。
探索に重みを置く場合(c=0.3):
https://gyazo.com/9127cb13394b4b0d0f0737b72ff7e0fd
活用に重みを置く場合(c=0.1):
https://gyazo.com/9dfc2f4a72b980e468a05e1faf80f2c2
Some potential directions:
We could also feed the human feedback (e.g. gaze attention) to grow the graph to relevant direction
The same approach can be taken for other brianstorming-type tasks (e.g. generating a game idea, story plot, etc)
it would be an interesting approach to create multiple agents with different “interests” and let them collaboratively grow the graph